在二进制分类中,不平衡是指一个类受到重量级的情况。这个问题是由于数据收集过程,或者是一个班级的人口中罕见。生物学,医学,工程和社会科学等应用中经常出现不平衡的分类。在本手稿中,我们首次学习不平衡课程大小对高尺寸线性判别分析(LDA)的影响。我们表明,由于一类中的数据稀缺,称为少数阶级,以及特征空间的高度,LDA忽略了少数阶级,产生了最大的错误分类率。然后,我们基于划分和征服技术提出了一种新的硬阈值规则的建设,这减少了错误分类率之间的巨大差异。我们表明所提出的方法是渐近最佳的。我们进一步研究了不平衡案例中的两个已知众所周知的LDA稀疏版本。我们使用模拟评估不同方法的有限样本性能,并通过分析两个真实数据集。结果表明,我们的方法胜过其竞争对手或基于所选特征的小区的较小子集具有可比性,同时计算更有效。
translated by 谷歌翻译